有限 MDP

请使用此链接获取 OpenAI Gym 中的可用环境。

环境索引为 环境 ID ，每个环境都有对应的 观察空间 、 动作空间 、 奖励范围 、 tStepL 、 Trials 和 rThresh 。

CartPole-v0

在表格中查找对应于 CartPole-v0 环境的行。请记下相应的 观察空间 ( Box(4,) ) 和 动作空间 ( Discrete(2) )。

正如在 OpenAI Gym 文档中所描述的情况：

每个环境都有第一类 Space 对象，描述了有效的动作和观察结果。

Discrete 空间允许存在固定范围的非负数。

Box 空间表示 n 维方框，因此有效动作或观察结果将是一个有 n 个数字的数组。

CartPole-v0 环境的观察空间有一个笔误： Box(4,) 。因此，在每个时间点的观察结果（或状态）是有 4 个数字的数组。你可以在此文档中查看每个数字表示的含义。打开该页面后，向下滚动到观察空间的说明部分。

注意 购物车速度 和 杆子顶端速度 的最小值 (-Inf) 和最大值 (Inf)。

因为数组中的条目对应的每个索引可以是任何实数，所以状态空间 \mathcal{S}^+ 是无限的！

CartPole-v0 环境的动作空间类型为 Discrete(2) 。因此，在任何时间点，智能体只能采取两个动作。你可以在此文档（注意，和查找观察空间使用的文档一样！）中查看每个数字表示的含义。打开该页面后，向下滚动到动作空间的说明部分。

在这种情况下，动作空间 \mathcal{A} 是一组有限的集合，仅包含两个元素。

记得在上个部分，我们提到：在有限的 MDP 中，状态空间 \mathcal{S} （或在阶段性任务中为 \mathcal{S}^+ ）和动作空间 \mathcal{A} 必须都是有限的。

因此，虽然 CartPole-v0 环境的确指定了 MDP，它没有指定 有限的 MDP。在这门课程中，我们将重点讲解有限 MDP 的解决方法。

你在这门课程中将解决的环境为：

如果你愿意的话，可以现在花时间详细了解这些环境。检查确保每个环境都指定 有限的 MDP。